第8章 固有表現抽出
ner.jsonを読み込み、シャッフルしてからtrain/val/testに分割(6:2:2)
create_dataset
データセットをデータローダに入力できる形に整形。
ner.jsonの要素のオブジェクト1つ1つについてtokenizer.encode_plus_taggedを呼び出す
BIO(リスト8-21)
encode_plus_tagged
データセット作成に使う
tokenizer.tokenizeを呼び出す
処理
固有表現の前後でtextを分割
encode_plus_untagged
性能評価に使う
以下の2つを呼び出している
tokenizer.word_tokenizer.tokenize
tokenizer.subword_tokenizer.tokenize